本文在移动平台上介绍了四摩托车的自动起飞和着陆系统。设计的系统解决了三个具有挑战性的问题:快速姿势估计,受限的外部定位和有效避免障碍物。具体而言,首先,我们基于Aruco标记设计了着陆识别和定位系统,以帮助四极管快速计算相对姿势。其次,我们利用基于梯度的本地运动计划者快速生成无冲突的参考轨迹;第三,我们构建了一台自主状态机器,使四极管能够完全自治完成其起飞,跟踪和着陆任务;最后,我们在模拟,现实世界和室外环境中进行实验,以验证系统的有效性并证明其潜力。
translated by 谷歌翻译
集成多模式数据以改善医学图像分析,最近受到了极大的关注。但是,由于模态差异,如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中,我们提出了一种新的方案,以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同,以适应不同方式的外观差异,同时提取共同的语义信息,我们的方法基于具有精心设计的外部注意模块(EAM)的单个变压器来学习在训练阶段,结构化的语义一致性(即语义类表示及其相关性)。在实践中,可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性,并且一旦模型进行了优化,就可以丢弃。因此,在测试阶段,我们只需要为所有模态预测维护一个变压器,这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性,我们对两个医学图像分割方案进行了实验:(1)心脏结构分割,(2)腹部多器官分割。广泛的结果表明,所提出的方法的表现优于最新方法,甚至通过极有限的训练样本(例如1或3个注释的CT或MRI图像)以一种特定的方式来实现竞争性能。
translated by 谷歌翻译
评估生成的对抗网络(GANS)的表现是由于其实际意义的重要课题。虽然已经提出了几种评估指标,但它们通常会评估整个产生的图像分布的质量。对于参考标制图像合成(RIS)任务,即呈现另一参考图像的样式的源图像,其中,在评估单个生成图像的质量至关重要时,这些度量不适用于这些度量。在本文中,我们提出了一般学习的框架,参考引导图像合成评估(RISA)来定量地评估单个生成图像的质量。值得注意的是,RISA的培训不需要人类注释。具体而言,RISA的训练数据由RIS中的培训过程中的中间模型获取,并且基于图像质量与迭代之间的正相关性,通过模型迭代的数量弱写。由于该注释作为监督信号太粗糙,我们介绍了两种技术:1)一种像素 - 明智的插值方案,以改进粗标签,以及2)多个二进制分类器来替换NA \“IVE回归。此外,无人监督引入对比损失以有效地捕获所生成的图像及其参考图像之间的风格相似性。各种数据集的经验结果表明,RISA与人偏好和跨越模型的井中转移良好。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在识别具有辅助语义信息的新类别,例如,类别属性。在本文中,我们通过逐步提高视觉表现的跨域可转换性和类别辨认性,处理域移位问题的临界问题,即观看和看不见的类别之间的困惑。我们命名为双渐进式原型网络(DPPN)的方法构造了两种类型的原型,分别为属性和类别记录原型视觉模式。使用属性原型,DPPN交替地搜索与属性相关的本地区域并更新相应的属性原型以逐步探索准确的属性区域对应。这使DPPN能够产生具有精确属性定位能力的可视表示,这有利于语义 - 视觉对齐和表示转换性。此外,除了渐进属性本地化之外,DPPN还将项目类别原型进一步投影到多个空间中,以逐步排斥来自不同类别的视觉表示,这提高了类别辨别性。属性和类别原型都在统一的框架中进行了协作学习,这使得DPPN可转移和独特的视觉表示。四个基准测试的实验证明,DPPN有效地减轻了GZSL中的域移位问题。
translated by 谷歌翻译
盐和辣椒噪声去除是图像处理中的常见问题。传统的去噪方法有两个限制。首先,通常未准确描述噪声特性。例如,噪声位置信息通常被忽略,并且盐和辣椒噪声的稀疏性通常由L1标准描述,这不能清楚地示出稀疏变量。其次,传统方法将污染图像分离成恢复的图像和噪声部分,从而导致恢复具有不满足平滑部件和细节部件的图像。在本研究中,我们引入了噪声检测策略来确定噪声的位置,并且采用由LP准规范描绘的非凸稀稀曲面正规化来描述噪声的稀疏性,从而解决了第一个限制。采用静止框架变换的形态分析框架将处理的图像分解为卡通,纹理和噪声部件以解决第二个限制。然后,采用乘法器(ADMM)的交替方向方法来解决所提出的模型。最后,进行实验以验证所提出的方法,并将其与一些最新的最先进的去噪方法进行比较。实验结果表明,该方法可以在保留加工图像的细节时去除盐和辣椒噪声。
translated by 谷歌翻译
个性化联合学习(PFL)是一种新的联邦学习(FL)方法,可解决分布式用户设备(UES)生成的数据集的异质性问题。但是,大多数现有的PFL实现都依赖于同步培训来确保良好的收敛性能,这可能会导致严重的散乱问题,在这种情况下,训练时间大量延长了最慢的UE。为了解决这个问题,我们提出了一种半同步PFL算法,被称为半同步个性化的FederatedAveraging(Perfeds $^2 $),而不是移动边缘网络。通过共同优化无线带宽分配和UE调度策略,它不仅减轻了Straggler问题,而且还提供了收敛的培训损失保证。我们根据每回合的参与者数量和回合数量来得出Perfeds2收敛速率的上限。在此基础上,可以使用分析解决方案解决带宽分配问题,并且可以通过贪婪算法获得UE调度策略。实验结果与同步和异步PFL算法相比,验证了Perfeds2在节省训练时间和保证训练损失的收敛方面的有效性。
translated by 谷歌翻译
提取和精心分析地质时滞的特征至关重要,以认识到复杂的自然事件的基本原因,例如洪水。有关导致气候变化的隐藏因素的有限证据使得预测区域水放电的挑战性挑战。此外,复杂地质时尚环境数据中的爆炸性增长需要由最先进的神经网络重复学习每个新地区强调需要新的计算有效的方法,高级计算资源和对A的广泛培训大量可用监控数据。因此,我们提出了一种有效可重复使用的预训练模型,以通过有效地捕获其内在地质时造血方差来解决从一个区域转移到另一个区域的这个问题的问题。此外,我们在新地区提高了用于时空解释性的四种转移学习方法,以提高NASH-SUTCLIFFE效率9%至108%,随着时间的推移减少95%。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译
Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
translated by 谷歌翻译